【研究员视角】大牛带你读论文|自然语言处理
在千呼万唤下,首期微软亚洲研究院官方微信群分享活动正式启动啦!11月3日,微软亚洲研究院首席研究员神秘加盟,从专家视角为我们直播#21世纪的计算大会#。拖至文末了解更多信息!
↓↓↓
【编者按】阅读和浏览论文,可能是微软亚洲研究院研究员每天都要做的事情。微软研究院AI头条不定期邀请研究员分享他们近期阅读的论文。本期由专注自然语言处理技术的崔磊研究员介绍他在ACL 2016大会上留意的五篇论文,这些论文涉及机器学习、深度神经网络与自然语言处理技术,也是微软亚洲研究院的研究前沿方向。
ACL大会的全称是国际计算机语言学大会,属于计算机语言学和自然语言处理领域的顶尖会议。ACL 2016大会于今年8月在德国举行,微软有20多位研究员参加,错过了前期报道的同学请点击《计算语言学思想碰撞的浪潮:ACL 2016》。
第一篇是UC San Diego和MIT的语言学方面的研究工作,题目是“FindingNon-Arbitrary Form-Meaning Systematicity Using String-Metric Learning forKernel Regression”,这篇文章是2016年ACL会议的最佳论文,主要探讨了自然语言中“符号任意性”(arbitrariness of the sign)的问题。
所谓“符号任意性”,指的是文字的字面形式与其含义无关。举一个简单的例子:上学的时候大家都背英文单词,一种直觉认为单词拼写相似的时候,含义往往有一定关联,以“gl”开头的单词很多于视觉相关,比如“glow, glint, glaze, gleam”。近年的主流语言学研究对于“符号任意性”有两种不同的看法,一种认为行为和语料库研究认为字面形式和其含义的关联只存在于有限词表中,一种认为字面形式和其含义的关联广泛存在于全部词表中。这篇论文的主要贡献在于,作者利用一种统计的核回归方法(kernelregression)来判断语言中的字面语义关联,通过字面形式的关系可以推断出词汇之间的分布语义(Distributional Semantics)关系。研究结果表明,英文词汇的字面语义关联远比我们通常认为的要广泛,而且这种关联往往体现在局部的字面形式。文章的实验设置很清晰,并不复杂,有兴趣的同学可以自行实现作者的方法。
第二篇是Universityof Cambridge对话系统方面的研究工作,题目是“On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems”,这篇文章是2016年ACL会议的最佳学生论文,主要探讨了对话系统中的强化学习(Deep Reinforcement Learning)问题。强化学习是近年来人们探讨和研究很热的一个方向,著名的阿尔法围棋算法(AlphaGo)便是采用了强化学习算法,使得程序之间可以相互博弈以提高自身的能力。在强化学习的研究中,如何定义和学习奖励机制(reward)是十分重要的,然而,传统的用户反馈的方法开销很大,在实用系统中无法承受。文章提出一种在线学习的框架,首先通过循环神经网络生成对话表示,进而利用基于高斯过程的主动学习机制大大降低了人工标注的代价。University of Cambridge这个研究组在对话系统方面有着长期深入的研究工作,建议感兴趣的同学可以多关注这方面的工作。
第三篇来自Stanford University机器阅读理解方面的研究工作,题目是“A Thorough Examination ofthe CNN/Daily Mail Reading Comprehension Task”。说到“阅读理解”,顾名思义,就是给定一篇文章或者一段文字,人们在阅读之后回答与文字相关的问题,这项任务在英文考试中经常出现。机器阅读理解指的是让机器模拟人来完成这项任务,与其他机器学习任务相比,机器阅读理解目前遇到的最大问题是缺乏高质量的人工标注数据。2015年,Hermann等人通过挖掘CNN和DailyMail网站的新闻数据制作了目前较大的一个机器阅读理解数据集。文章基于这个数据集,提出了两种基于分类的方法,分别是传统的分类器LambdaMART和基于神经网络的分类器,其中基于神经网络分类器的结果在两个数据集的分类准确率在73.6%和76.6%,多个模型的集成进一步将准确率提升至77.6%和79.2%。阅读理解任务是目前问答研究非常火的一个领域,近